透明对象对视觉感知系统提出了多个不同的挑战。首先,他们缺乏区分视觉特征使透明对象比不透明的对象更难检测和本地化。即使人类也发现某些透明的表面几乎没有镜面反射或折射,例如玻璃门,难以感知。第二个挑战是,通常用于不透明对象感知的常见深度传感器由于其独特的反射特性而无法对透明对象进行准确的深度测量。由于这些挑战,我们观察到,同一类别(例如杯子)内的透明对象实例看起来与彼此相似,而不是同一类别的普通不透明对象。鉴于此观察结果,本文着手探讨类别级透明对象姿势估计的可能性,而不是实例级姿势估计。我们提出了TransNet,这是一种两阶段的管道,该管道学会使用局部深度完成和表面正常估计来估计类别级别的透明对象姿势。在最近的大规模透明对象数据集中,根据姿势估计精度评估了TransNet,并将其与最先进的类别级别姿势估计方法进行了比较。该比较的结果表明,TransNet可以提高透明对象的姿势估计准确性,并从随附的消融研究中提高了关键发现,这表明未来的方向改善了绩效。
translated by 谷歌翻译
从语言灵活性和组成性中受益,人类自然打算使用语言来指挥体现的代理,以进行复杂的任务,例如导航和对象操纵。在这项工作中,我们旨在填补最后一英里的体现代理的空白 - 通过遵循人类的指导,例如,“将红杯子移到盒子旁边,同时将其保持直立。”为此,我们介绍了一个自动操纵求解器(AMSolver)模拟器,并基于IT构建视觉和语言操纵基准(VLMBENCH),其中包含有关机器人操纵任务的各种语言说明。具体而言,创建基于模块化规则的任务模板是为了自动生成具有语言指令的机器人演示,包括各种对象形状和外观,动作类型和运动约束。我们还开发了一个基于关键点的模型6D-Cliport,以处理多视图观察和语言输入,并输出一个6个自由度(DOF)动作的顺序。我们希望新的模拟器和基准将促进对语言引导机器人操纵的未来研究。
translated by 谷歌翻译
透明的物体在家庭环境中无处不在,并且对视觉传感和感知系统构成了不同的挑战。透明物体的光学特性使常规的3D传感器仅对物体深度和姿势估计不可靠。这些挑战是由重点关注现实世界中透明对象的大规模RGB深度数据集突出了这些挑战。在这项工作中,我们为名为ClearPose的大规模现实世界RGB深度透明对象数据集提供了一个用于分割,场景级深度完成和以对象为中心的姿势估计任务的基准数据集。 ClearPose数据集包含超过350K标记的现实世界RGB深度框架和5M实例注释,涵盖了63个家用对象。该数据集包括在各种照明和遮挡条件下在日常生活中常用的对象类别,以及具有挑战性的测试场景,例如不透明或半透明物体的遮挡病例,非平面取向,液体的存在等。 - 艺术深度完成和对象构成清晰度上的深神经网络。数据集和基准源代码可在https://github.com/opipari/clearpose上获得。
translated by 谷歌翻译
视觉感知任务通常需要大量的标记数据,包括3D姿势和图像空间分割掩码。创建此类培训数据集的过程可能很难或耗时,可以扩展到一般使用的功效。考虑对刚性对象的姿势估计的任务。在大型公共数据集中接受培训时,基于神经网络的深层方法表现出良好的性能。但是,将这些网络调整为其他新颖对象,或针对不同环境的现有模型进行微调,需要大量的时间投资才能产生新标记的实例。为此,我们提出了ProgressLabeller作为一种方法,以更有效地以可扩展的方式从彩色图像序列中生成大量的6D姿势训练数据。 ProgressLabeller还旨在支持透明或半透明的对象,以深度密集重建的先前方法将失败。我们通过快速创建一个超过1M样品的数据集来证明ProgressLabeller的有效性,我们将其微调一个最先进的姿势估计网络,以显着提高下游机器人的抓地力。 ProgressLabeller是https://github.com/huijiezh/progresslabeller的开放源代码。
translated by 谷歌翻译
我们的目标是国内机器人进行长期室内服务。在日常人类活动引起的对象级场景的动态下,机器人需要在场景不确定性的情况下稳健地将自己定位于环境中。以前的工作已经解决了基于视觉的本地化在静态环境中的本地化,但是对象级场景动态挑战了机器人长期部署的现有方法。本文提出了一个语义理解网络(Seannet)体系结构,该体系结构可以通过耦合的视觉和语义输入来实现有效的学习过程。借助包含对象动态的数据集,我们提出了一个级联的对比度学习方案,以训练Seannet学习矢量场景嵌入。随后,我们可以测量当前观察到的场景和目标场景之间的相似性,从而在对象级动力学下实现强大的本地化。在我们的实验中,我们在场景相似性测量方面对抗最先进的图像编码网络(基线)进行基准测试。带有建议的训练方法的Seannet架构可以达到85.02 \%的准确性,该准确性高于基准。我们将Seannet和其他网络作为本地化进一步集成到Visual Navigation应用程序中。我们证明,与基准相比,Seannet取得了更高的成功率。
translated by 谷歌翻译
本文介绍了由波浪和太阳能运行的低成本无人面车辆(USV)的原型,该车辆可用于最小化海洋数据收集的成本。目前的原型是一个紧凑的USV,长度为1.2米,可以通过两个人部署和恢复。该设计包括电动绞盘,可用于缩回和降低水下单元。设计的几个要素利用添加剂制造和廉价的材料。通过自定义开发的Web应用,可以使用射频(RF)和卫星通信来控制车辆。通过使用先前的研究工作和先进材料的推荐,在拖曳,提升,重量和价格方面进行了优化了表面和水下装置。通过测量几个参数,例如溶解的氧,盐度,温度和pH,USV可用于水状监测。
translated by 谷歌翻译
开普勒和苔丝任务产生了超过100,000个潜在的传输信号,必须处理,以便创建行星候选的目录。在过去几年中,使用机器学习越来越感兴趣,以分析这些数据以寻找新的外延网。与现有的机器学习作品不同,exoMiner,建议的深度学习分类器在这项工作中,模仿域专家如何检查诊断测试以VET传输信号。 exoMiner是一种高度准确,可说明的和强大的分类器,其中1)允许我们验证来自桅杆开口存档的301个新的外延网,而2)是足够的,足以应用于诸如正在进行的苔丝任务的任务中应用。我们进行了广泛的实验研究,以验证exoMiner在不同分类和排名指标方面比现有的传输信号分类器更可靠,准确。例如,对于固定精度值为99%,exoMiner检索测试集中的93.6%的所有外产网(即,召回= 0.936),而最佳现有分类器的速率为76.3%。此外,exoMiner的模块化设计有利于其解释性。我们介绍了一个简单的解释性框架,提供了具有反馈的专家,为什么exoMiner将运输信号分类为特定类标签(例如,行星候选人或不是行星候选人)。
translated by 谷歌翻译
超过30亿人缺乏护理皮肤病。AI诊断工具可能有助于早期皮肤癌检测;然而,大多数模型尚未在不同肤色或罕见疾病的图像上进行评估。为了解决这个问题,我们策划了多样化的皮肤科(DDI)DataSet - 这是一种具有不同皮肤色调的第一个公开的,病理证实的图像。我们展示了最先进的皮肤科AI模型在DDI上表现得很糟糕,ROC-AUC与模型的原始结果相比下降29-40%。我们发现暗肤色和罕见的疾病,在DDI数据集中提供良好,导致性能下降。此外,我们表明,无需多样化培训数据,我们表明最先进的强大培训方法无法纠正这些偏差。我们的研究结果确定了需要解决的皮肤病学AI中的重要弱点和偏见,以确保可靠应用于各种患者和所有疾病。
translated by 谷歌翻译
亲属性验证是在两个人之间确定父子,兄弟姐妹或祖父母的关系,在社交媒体应用,法医调查,发现失踪的儿童和团聚家庭中都很重要。我们通过参加2021年在野外挑战中识别2021家庭来展示高质量的亲属验证,该家庭提供了该领域中最大的公共数据集。我们的方法是竞争中的前三名获奖条目之一。我们的专家和基础模型,Openai Codex撰写的模拟模型,培训了文本和代码。我们使用Codex来生成模型变体,并且还展示其能够生成特定关系的亲属验证任务的整个运行程序。
translated by 谷歌翻译
如今,表面裂缝是公共基础设施的常见景象。最近的工作通过支持使用背景曲面裂缝的机器学习方法支持结构维护措施,解决了这个问题,使它们易于本地化。然而,这些方法的常见问题是创建一个良好的运行算法,训练数据需要详细地注释属于裂缝的像素。我们的工作提出了一种弱监督的方法,它利用CNN分类器来创建曲面裂纹分割图。我们使用此分类器通过使用其类激活映射和基于贴片的分类方法来创建粗糙的裂缝本地化地图,并用基于阈值的方法熔断器来融合它,以分段为大多数较暗的裂纹像素。分类器有助于抑制背景区域的噪声,这通常是通过标准阈值处理方法被错误地突出显示的裂缝。我们专注于我们的方法的易于实现,并且显示在几个表面裂纹数据集上表现良好,即使用于训练的唯一数据是简单的分类标签,也可以有效地进行分割裂缝。
translated by 谷歌翻译